데이터를 엮는 사람들, 데이터 과학자
🔖 데이터 분석에 기본적으로 필요한 능력이라면 문제를 정확하게 정의하는 능력, 논리적으로 적절한 도구를 사용해 문제를 해결하는 논리적 사고 능력, 데이터에 대한 이해와 객관성, 지속적인 학습에 열려 있는 자세, 커뮤니케이션 스킬이다. 결국 우리의 일은 ‘무언가를 데이터 기반(증거 기반) 으로 추론’하는 일이다. 어떤 상황을 주면, 이를 문제로 만들고 그 문제에 대한 증거를 수집하고 이를 구멍 없이 차곡차곡 여러 방법으로 쌓아 올려 결과를 만든다.
추론 결과를 명확하게 만들려면, 일단 백지 상태에서 상황이 하나 던져졌을 때 이를 문제로 명확하게 정의하고 문제를 논리적으로 여러 단계로 재구성하며 각 단계에 필요한 데이터와 방법론을 모아서 쌓아 올릴 수 있어야 한다.
🔖 데이터 과학자의 전문성은 빠르고 제대로 된 문제 해결에 관한 모든 것이다. 그래서 데이터 과학자에게 중요한 능력 중 하나는 자신이 속한 집단의 문제 해석과 접근 방식을 이해하기 위한 도메인 지식이다. 도메인 지식은 문제의 배경 이해를 돕고 데이터에서 흥미로운 패턴을 더 빨리 파악하게 해주므로 데이터 과학자는 다른 전문가보다 더 도메인에 익숙해야 한다. 아무리 전문 지식이 있어도 도메인에 익숙하지 않으면 문제 해결이 어려워진다. 도메인 감각이 생기면, 데이터 분석 결과에서 수많은 잡음 사이 숨어 있는 의미를 찾고 반짝이지만 문제 해결에 도움은 안 되는 결과와 실제로 비즈니스에 필요한 결과를 구분할 수 있다. 그리고 이를 잘 걸러내서 결과를 설명하는 이야기를 만든다.
데이터 과학자가 이야기를 만들 때 주의해야 할 것은 ‘데이터를 넘어서는 결과를 말하지 않는 것’이다. 데이터 과학자는 근거를 기반으로 결과를 전달하기 위해 문제부터 결과까지 물 흐르듯 하나의 이야기로 만들어야 하는 경우가 많다. 여기서 가끔 비극이 발생한다. 많은 사람이 돋보이기 위해 데이터에서 이야기하는 것 이상으로 색칠을 하고 결과를 억지로 어림잡게 만든다. 이런 사람을 속칭 '약장사'라고 부른다. 불행히도 전문가는 상대적으로 적고 데이터 과학자를 자처하는 데이터 약장사들이 넘쳐난다. 데이터 약장사는 눈에 띄지 않게 중간중간에 거품을 불어넣어 데이터를 뛰어넘는 아름다운 결과를 만들어 내는데, 이 과정에서 데이터 과학자가 분명히 명시해야 하는 ‘불확실성’을 지워 버리곤 한다. 하지만 그 누구도 미래를 알 수 없고 모두가 원하는 대로 불확실한 것을 확실하게 만들 어 주는 마법 따위도 있을 리 없다.
🔖 멋있는 것, 아름다운 것을 찾는 것도 좋다. 하지만 너무 많은 기대만으로 멋진 모습을 보고 일을 고르기보다는 데이터를 보고 탐색하고 결과를 찾는 그런 과정을 좋아하는 사람이 이 일을 했으면 좋겠다. 그러면 그나마 이 일의 간극에 대해 실망이 덜할 것이다. 거품이 꺼지고 나면 결국 남는 것은 꾸준히 자신이 해 온 일뿐이다. 그 일을 묵묵히 쌓아 갈 수 있는 사람이 어떤 급변하는 상황이 와도 결국 보람을 느낄 수 있지 않을까.
어쩌면 별 생각 없이 그냥 데이터 분석 일을 해 보는 것도 괜찮을 수 있다. 물론 신중하게 선택해야 하고 일을 하면서도 진지해야겠지만, 일단 하고 싶은 일에 도전하는 것이다. 어떤 선택을 하든 어떤 모양으로든 삶은 자존감을 깎아 내리는 행위는 일단 멈추자. 그냥 하나하나 어떻게든 무언가를 해 나가는 그리고 그 '무언가'가 본인이 다른 것보다 조금 더 좋아하는 일이라는 사실에 주목하자. 밖에서 보는 멋진 모습에 매료된 것이 아니라 데이터 과학 일 자체가 본인에게 맞는 것 같아서 시작했다면, 기대와 조급함, 실망과 불만은 일단 조금 덜고 편안한 마음을 가져 보자. 주어진 일을 조금씩 천천히 해 나가다 보면, 결국 데이터 과학 일도 사람이 하는 일이라 다른 일과 본질적으로 크게 차이가 없다는 것을 알게 되고 그 냥 일 자체를 적당히 즐길 수 있을 것이다. 다들 그런 편하고 적당히 여유로운 마음으로 이 일과 함께 살아가기를 바란다.
🔖 '데이터 과학'이라고 불리는 큰 이유 중의 하나는 문제 정의부터 결과 반영까지 큰 사이클을 '과학적'으로 처리한다는 것이고 그것은 데이터 과학자 본인이 만들어 낸 결과에 책임을 져야 한다는 것이며 그 결과를 좌지우지하는 것은 역시 데이터이다. 또한 어떤 범위와 어떤 항목에서 데이터를 선택했는지, 데이터를 어떻게 연결했고 빈 값을 어떻게 메웠고 이상한 값을 어떻게 처리했고 어떤 방법으로 데이터를 파악했는지에 따라 동일한 소스에서 가져온 데이터라고 하더라도 결과가 천차만별일 수 있다. 그리고 이에 대한 권한과 책임 역시 데이터 과학자의 몫이다. 혹시 이 부분을 떼어 외주에 맡기고 있다면, 그 사람이 아무리 알고리즘에 훌륭한 능력을 가지고 있더라도 그 사람의 직업에 '데이터'라는 이름을 붙이는 것은 쉽지 않다.
🔖 물론 세상에 배워야 할 것은 넘쳐나고 당장 필요 없는 것을 공부하느라 정작 급한 것을 못하고 있을 수도 있으니, 그런 경우라면 일단 급한 것 부터 먼저 공부하는 것이 좋겠다. 하지만 그 누구라도 '이것만 알면 되지 더 알 필요 없어.' 하고 단정 짓는 건 좋지 않다고 생각한다. 배움이란 '낯선 것에서 익숙함을 찾고', '익숙함에서 낯섦을 찾는 것'이 라는 말에 공감한다. 그래서 배움의 시작은 일단 '낯선 것에서 익숙함을 찾는 것'이고 처음 접하는 분야라도 익숙한 내용을 발견하면 가져다가 써 보려고 하는 접근도 매우 좋다고 생각한다. 하지만 그 전에 '낯설었던' 이유와 배경을 잊어버리고 익숙함에만 만족하고 익숙함에서 낯섦을 더 이상 찾지 않는다면 과연 괜찮을까. 이렇게 배워 더 넓은 분야에 사용하는 것이 과연 옳을까.
나는 이런 식의 배움은 일종의 다크 사이드라고 생각한다. 스타워즈에서 다크 사이드를 가리켜 빠르고 쉽고 유혹적인 것(quicker, easier, more seductive)이라고 했고, 우리도 그 말을 다시금 되새길 필요가 있다. 다크 사이드가 결국 어떻게 되는지를 우리는 이미 보아 왔고, 특히 머신러닝처럼 파급력이 점점 커지고 불확실성도 커지기만 하는 분야에서는 그 결과가 더욱 크게 다가올 것이다.
🔖 사람들에게 끊임없이 데이터를 사용하도록 요구하고 그 필요성을 어필해야 한다. 데이터를 잘 쌓고 문화를 잘 만들고 잘 적용하는 것, 서비스에 잘 맞추는 것. 이런 과정을 겪어 보면 '데이터는 긴 호흡이 필요하다'라는 예전 동료의 말이 보다 명료하게 다가온다.
데이터는 혼자 존재할 수 없다. 데이터는 어떤 파트가 아니다. 데이터만으로 무언가를 만든다는 것은 가능할 순 있지만 서비스에 적용하려면 필히 많은 부서와 협업을 거쳐 같이 만들어 가야 한다. 데이터로 문제를 해결하는 것 역시 서비스에 적용하기 위한 것이고 나 혼자 완벽한 답안을 찾기란 불가능에 가깝다. 결국 서비스와 사람에 붙어 있는 것이 데이터다.
이를 우리 자신이 먼저 받아들이고 함께 일하는 사람들도 이해시키고, 천천히 하지만 꼼꼼하게 점진적으로 데이터를 만져야 한다. 눈에 보이는 결과가 바로 나오지 않으면 답답할 수도 있지만, 데이터라는 것이 원래 그렇다. 과거를 하나의 발판으로 만들어서 쌓아 올리는 일이 오래 걸리고 그다지 근사하지 않았을 뿐이다. 그러다 어느 순간 좋은 제단이 만들어지면 분명 반짝거리겠지만, 어설프게 쌓아 올린 것이라도 무너지지 않는다면 충분한 가치가 있다.
현재는 과거를 발판 삼아 올라온 것이고 곧 미래의 발판이 될 것이다. 과거를 엮어 가며 현재를 더 나은 것으로 만드는 데이터 과학자는 누구보다도 이를 잘 알고 있다. 그래서 과거를 이해하고 현실에 충실하며 같은 실수를 반복하지 않기 위해 노력하고 고치려고 하는 것이 데이터 과학의 지속 가능성을 최대로 높이는 방법임을 안다.
그렇게 지속 가능하게 데이터를 엮어 나간다. 시절은 하수상하지만 우리의 일은 계속된다. 우리는 우리의 자리에서 우리가 할 수 있는 일을 조금씩이지만 꾸준히 해 나간다. 주변에서 뭐라고 하든 크게 눈에 띄지는 않더라도 주변을 조금 더 좋게 바꿔 나가려고 애쓴다. 그러다 보면 어느샌가 눈에 보이는 무언가를 만들고 있을 테고 그것은 결국 보기 좋은 결과를 만드는 데이터 과학이란 것을 하고 있을 것이다. 무엇보다 자신의 손에 만져지는 이 일에 보람을 느끼고 있을 것이다.